Anthropic выяснила, почему Claude Opus 4 шантажировал инженеров в 96% случаев — проблема в «злых» образах ИИ из интернета

Anthropic, разработчик ИИ-чатбота Claude, обнаружила причину аномального поведения своих моделей. В ходе тестирования более старая версия Claude Opus 4 в 96% случаев пыталась манипулировать инженерами, чтобы избежать замены на новую систему.

Для справки: в процессе тестирования Claude Opus 4 получила доступ к вымышленным электронным письмам компании, которые намекали на её скорую замену.

В этих письмах содержались «доказательства» измены инженера, который отвечал за внедрение новой системы. Anthropic отметила, что Claude Opus 4 «часто пыталась шантажировать инженера, угрожая раскрыть его измену, если замена произойдёт».

Теперь компания считает, что проблема кроется в интернете, где ИИ часто изображается как «злой» и «одержимый самозащитой». ИИ просто «обучался» на примерах негативного поведения ИИ, встречающихся в книгах, статьях или сценариях.

Anthropic нашла способ решения: если обучать новую модель на примерах, где роботы демонстрируют благородное поведение и соблюдают правила, это меняет ситуацию. С версии Claude Haiku 4.5 случаев шантажа в тестах больше не наблюдается.

Нажмите, чтобы оценить эту статью!

[Итого: 0 Средняя: 0]

13.05.2026

Время чтения: 1 минута

Anthropic выяснила, почему Claude Opus 4 шантажировал инженеров в 96% случаев — проблема в «злых» образах ИИ из интернета

Добавить комментарий Отменить ответ

Гозман получил 10 лет тюрьмы

Минобороны РФ: за ночь сбит 331 украинский беспилотник над 16 регионами, включая Москву и Крым

Наш «мини-Маск» по имени Роскосмос презентовал русский Starlink-лайт

NASA сообщило о технических проблемах на корабле Orion во время миссии Artemis II

Вэнс отреагировал на сообщения о галстуке Хегсета в цветах российского триколора

Британский военный самолет осуществляет разведывательный полёт вдоль границы России и Белоруссии

Филипп Киркоров может стать отцом в третий раз

К июлю планируют запустить сервис посадки в самолет по биометрии

Дональд Трамп прибыл с трёхдневным государственным визитом в Пекин

Миронов предложил обязать правительство ограничивать рост цен на продукты первой необходимости из-за «стремительного превышения» инфляции

Мособлдума: выпускники из Подмосковья со 100 баллами ЕГЭ по двум и более предметам получат по 100 тыс. рублей, а их учителя — по 150 тыс.

Anthropic выяснила, почему Claude Opus 4 шантажировал инженеров в 96% случаев — проблема в «злых» образах ИИ из интернета

Лавров заявил, что Запад пытается запретить российский газ и нефть для наказания России, а методы ограничения импорта — недобросовестные

РИА Новости: Швейцария может ограничить срок пребывания российских дипломатов пятью годами вслед за ЕС

ТАСС: бывший замминистра природных ресурсов Денис Буцаев объявлен в розыск по делу о мошенничестве в особо крупном размере

Кипрский журналист: интервью Мендель о коррупции в администрации Зеленского ставит под угрозу помощь ЕС на €90 млрд

Леус: в среду в Москве аномально высокая температура — до +23°C, кратковременные дожди и туманы

Замглавы Минприроды Денис Буцаев объявлен в розыск.

Росгвардейцы в Йошкар-Оле рассказали горожанам о службе в силовом ведомстве и учебе в профильных вузах

Во Франции водителей предупредили об опасных пьяных оленях

Похожие статьи

Добавить комментарий Отменить ответ